NVIDIA представила Drive PX 2 на GPU Pascal (обновление)

Опубликовано: 05.01.2016 в 13:35 Андрей Шиллинг

nvidia 2013 В качестве основной темы пресс-конференции на CES 2016 NVIDIA выбрала автономное вождение. За последние месяцы были потрачены тысячи человеко-часов разработчиков, чтобы подготовить программное и аппаратное обеспечение для данного сегмента. NVIDIA указала важную роль не только программного и аппаратного обеспечения, но и возможностей глубокого обучения (Deep Learning).

Сегодня NVIDIA представила Drive PX 2. Аппаратный модуль в небольшой коробочке обладает достаточной производительностью для автономного вождения машины. Впрочем, подобное обещание давалось и с предыдущими версиями, но сегодня автомобили получают все больший уровень производительности, чтобы "автопилот" работал более эффективно и безопасно. Drive PX 2 опирается на 12 вычислительных ядер CPU, но более интересно, что GPU в чипе опирается на новую архитектуру Pascal, которая официально еще не представлена.

Пресс-конференция NVIDIA на CES 2016: фокус на автономном вождении

Восемь ядер CPU опираются на архитектуру ARM Cortex A57, а четыре ядра – на фирменную архитектуру Denver. Дополняет процессор Tegra GPU поколения Pascal, причем в модуле Drive PX 2 используются два процессора Tegra и, соответственно, два GPU. Чип Tegra ранее был известен под кодовым названием Parker. Вычислительная производительность составляет 8 TFLOPS, так что Drive PX 2 может выступать на уровне high-end GPU в настольном сегменте – сравнимая вычислительная производительность наблюдается у той же видеокарты GeForce GTX Titan X. Производятся GPU по 16-нм техпроцессу FinFET. Здесь NVIDIA приблизилась к AMD, которая вчера представила архитектуру Polaris с новым техпроцессом, первые видеокарты начнут поставляться в середине года. Ниже приведена иллюстрация модуля Drive PX 2, в упаковке кроме кристалла SoC присутствуют еще и чипы HBM, NVIDIA с новым поколением Pascal тоже перешла на более быструю память. Как было известно ранее, архитектура Pascal опирается на Mixed Precision, NVLink и HBM.

Пресс-конференция NVIDIA на CES 2016: Drive PX 2

Но у упомянутой вычислительной производительности есть свой недостаток, а именно энергопотребление, которое составляет 250 Вт. Чтобы рассеять накапливающееся тепло, NVIDIA установила на Drive PX 2 систему водяного охлаждения. Так что при оценке габаритов модуля Drive PX 2 следует учитывать теплообменник и насос. Впрочем, электромобили обычно уже используют систему водяного охлаждения для аккумуляторов, так что модуль Drive PX 2 может интегрироваться в ее контур.

NVIDIA вновь подчеркнула, что обучение в сетях Deep Learning выполняется не на мобильных модулях Drive PX 2, а в дата-центрах, где используются высокопроизводительные GPU. На GPU Technology Conference в прошлом году эта тема как раз детально обсуждалась.

Компания создала собственную тестовую платформу NVIDIA DriveNet, которая выполняет все необходимые шаги глубокого обучения (Deep Learning) для Drive PX 2. Сеть глубокого обучения состоит из девяти слоев Inception и 37 млн. нейронов, система DIGITS может обрабатывать до 40 млрд. операций. На сцене NVIDIA показала «живую» демонстрацию, которая показывает процесс тренировки сети глубокого обучения в реальном времени. Начальным массивом данных стали 170 млн. изображений, на анализ которых даже у мощной системы глубокого обучения ушел почти месяц. Без ускорения на GPU анализ занял бы несколько лет. Вторым этапом к данным были добавлены другие модели, чтобы кроме простых объектов система могла распознавать пешеходов, автомобили, велосипеды, дорожные знаки и т.д. Система автоматически обучается и находит отличия между объектами, также объектам привязывается разный вес. Например, статические объекты на дороге представляют меньшую опасность, чем пешеходы, которые могут перемещаться.

» Fotostrecke

Чтобы облегчить задачу разработчикам, NVIDIA представила программный комплект. В DriveWorks входят необходимые программные ресурсы, он облегчает взаимодействие с соответствующим аппаратным обеспечением. Симулируется эталонный автомобиль, на который установлено шесть камер и другие сенсоры. Одни только сенсоры обеспечивают 1,6 млн. измерений в секунду. Но системе еще необходимо анализировать изображения, поступающие с шести камер.

Чтобы подкрепить доверие к автономному вождению, NVIDIA разработала визуализацию, которая позволяет с помощью Drive CX выводить на экраны автомобильной системы развлечения информацию, собираемую Drive PX 2. На виртуальном лобовом стекле отображалась информация, поступающая с камер, и данные сенсоров.

Первым производителем автомобилей, который будет устанавливать Drive PX 2 в свои модели, стал Volvo. Однако NVIDIA пока не указывает, какие именно модели обзаведутся новой системой, а также когда именно это произойдет.

Обновление:

Мы получили дополнительные детали о вычислительной производительности двух GPU на основе Pascal в Drive PX 2. На фотографии можно видеть по восемь чипов памяти GDDR5 от Elpida на каждый GPU. Однако емкость чипов неизвестна.

CES 2016 NVIDIA Pressekonferenz: Drive PX 2 mit zwei Pascal-GPUs — Drive PX 2 с двумя GPU Pascal

Вычислительная производительность указана не совсем понятно. С одной стороны, NVIDIA говорит о суммарной производительности Drive PX 2 на уровне 8 TFLOPS. С другой стороны, указываются 24 тетраоперации глубокого обучения в секунду – весьма необычный показатель вычислительной производительности. Упомянутые вычисления, скорее всего, выполняются исключительно на GPU. В результате мы получаем 12 DL TOPS на GPU. И это не обычные FLOPS (операции с плавающей запятой в секунду), поскольку они не вписываются в заявленную выше общую производительность.

Возможно, NVIDIA подразумевает Mixed Precision, то есть возможность использовать ядра FP32 для выполнения двух операций FP16 одновременно. То есть вычисления FP16 объединяются вместе, что позволяет их выполнять на ядрах FP32. Такой подход позволяет увеличить производительность вычислений FP16, но операции должны быть одинаковые. Например, можно объединять только две операции сложения или умножения. Для анализа видео и изображений операции FP16 очень важны, поэтому особенности архитектуры Pascal могут обеспечивать преимущества. Вероятно, по этой причине NVIDIA смогла дать высокую производительность для сетей глубокого обучения.

В четверг у наших редакторов назначена встреча с NVIDIA, где мы попытаемся узнать дополнительные подробности.